雑談 2026年1月

from 💬雑談

2026/1/31

https://huggingface.co/blog/johntnanney/gradience-protocol-mistralloraのRankを使いすぎていたかをチェックできるツールらしい？morisoba65536.icon

大事な気がするのでしっかり読みたいnomadoor.icon

Gradience

2026/1/29

RAM 96GBの民になりました。破産です。nomadoor.icon

お大事に…morisoba65536.icon

現在「世界モデル」とか言ってお出しされる生成AI(操作可能なもの)、少なくとも見てる範囲のものは全部拡散モデルベース動画の延長線なので流石に世界モデルは盛りすぎ感が強い…(Sora2クラスでも拡散モデルのビッグデータゴリ押しではピタゴラスイッチを作れないんで…)morisoba65536.icon

WAKARUnomadoor.icon

キーボード操作条件付きリアルタイム動画生成くらいにしておかないと本当の世界モデルが出てきた時困りそう

2026/1/28

https://www.reddit.com/r/StableDiffusion/comments/1qoorck/comment/o24ph4z/?utm_source=share&utm_medium=mweb3x&utm_name=mweb3xcss&utm_term=1&utm_content=share_buttonどうも投稿ツリーを見る限りベースで学習したLoRAをTurboに適用するのがうまく行ってないみたい？(まだノウハウが不足してるのかも知れないが)morisoba65536.icon

https://www.reddit.com/r/StableDiffusion/comments/1qgsys5/psa_if_youre_training_on_flux2kleinbase4b_check/?utm_source=share&utm_medium=mweb3x&utm_name=mweb3xcss&utm_term=1&utm_content=share_buttonFLUX.2 (klein)でも似たようなことが起きているのでベースモデルと蒸留モデルを別ツリーで学習するのが結構問題あるのかも知れない…morisoba65536.icon

https://www.reddit.com/r/StableDiffusion/comments/1qp0wjp/am_i_tripping_or_multiple_lora_still_breaks/?utm_source=share&utm_medium=mweb3x&utm_name=mweb3xcss&utm_term=1&utm_content=share_button設定が難しいのかZ-Image-Baseの学習が今のところ安定してないっぽい？morisoba65536.icon

Z-Image-Baseで学習してZ-Image-Turboで効くものもあるようだ、互換性についての評価はもうちょっとかかりそうmorisoba65536.icon

2026/01/30追記:https://www.reddit.com/r/StableDiffusion/comments/1qqbfon/zimage_base_loras_dont_need_strength_10_on_zimage/?utm_source=share&utm_medium=mweb3x&utm_name=mweb3xcss&utm_term=1&utm_content=share_buttonやはりというかBASEでの学習については割と是非や手法議論がされてる状態なので、慌てるつもりがないならもうしばらく待つのがよいかもしれない。

簡単に試したZ-Image-Base

CFG1はステップ数さえ適切なら普通に通るので時短生成したいときには1でネガティブスキップはできる

CFG1は流石にちょっと不安定だった

Z-Image-TurboとはWeightの形状はだいぶ違うようでBASE-Turboを🦊Extract and Save Loraノードでお手軽TurboLoRA化は出来なかった(Rank512でまだノイズになる)

印象的にはSDXLに対するPony Diffusion V6 XLと言ったくらいの変更がありそうな感じ。マージとかはできそうだけどLoRAは動くかも？(機能しないことも多い、適用はできる)の気持ちで見たほうがよいかもしれない。

ものすごい難しいなこのモデル…nomadoor.icon

適当に使えない感じPony V7みたいだ

そういえばAI タイムライン全然書いてなかったな…nomadoor.icon

ちょこちょこ大きなものがあった気がするけれど(´ε｀ )

2026/1/27

https://huggingface.co/MachineDelusions/LTX-2_Image2Video_Adapter_LoRaLTX-2の主にimage2videoを強化するLoRAmorisoba65536.icon

LTX-2 Image2Video Adapter LoRa

今日はZ-Image-Baseのみになりそうな感じなので当面はローカルで編集モデルを触る場合FLUX.2 (klein)を使うことになりそうな感じmorisoba65536.icon

↑ComfyUIのワークフローが準備されたり、開発の中の人と知り合いと思われるアカウントが今日リリースと書いてるんだけどちょっと戸惑い出してるのでなんかアップロードとかに問題起きてるのかな…となりつつあるmorisoba65536.icon

→https://x.com/bdsqlsz/status/2016174777212588402?s=20https://x.com/bdsqlsz/status/2016178557496721697?s=20北京時間(日本時間-1)ではギリギリ27日にでたmorisoba65536.icon

👏nomadoor.icon

2026/1/26

https://www.reddit.com/r/StableDiffusion/comments/1qmucso/comment/o1orifa/?utm_source=share&utm_medium=mweb3x&utm_name=mweb3xcss&utm_term=1&utm_content=share_buttonhttps://www.reddit.com/r/StableDiffusion/comments/1qhl9p5/ingredients_hack_for_ltx2/?utm_source=share&utm_medium=mweb3x&utm_name=mweb3xcss&utm_term=1&utm_content=share_buttonLTX-2での参照画像ワークフロー(に使うノードの説明)morisoba65536.icon

直接的にワークフローが張っているわけではないようだmorisoba65536.icon

FLUX.2-klein-4Bのmultiリファレンスで漫画の一コマをキャラデザイン維持して作れたのでコマごとにキャラが変わる問題はローカルのみでも割と解決できるフェーズに入ったかもしれない(ただし結構ガチャは必要)morisoba65536.icon

2026/1/23

https://x.com/LinumInc/status/2014376167277801814?s=202人のチームで動画生成モデルをフルスクラッチしたらしいmorisoba65536.icon

すごいnomadoor.icon

流石に2人じゃ厳しいとは書いてあるけど、GPU回せるだけの資金があれば人数じゃないんだなぁ…

Linum v2

https://www.reddit.com/r/comfyui/comments/1qkqamk/ltx2_distilled_260115_coupled_with_distill_lora/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_buttonLTX-2のDistilled 260115からdistill Loraを-0.4程度すると画質が(少なくとも投稿者の好みとして)良くなるらしいmorisoba65536.icon

蒸留モデル - 蒸留LoRA って、dev + 蒸留LoRAと比べると損しかしてないような気がするけどどうなんですかね…nomadoor.icon

普通に考えるとそうなんだけど、蒸留モデルで過学習気味になっている画質向上の処理を弱体化させることでちょうどよくなったのかもしれない(汎用的なものかピンポイントな状況で刺さったのかは不明)morisoba65536.icon

2026/1/22

https://www.reddit.com/r/StableDiffusion/comments/1qixi2l/i_successfully_replaced_clip_with_an_llm_for_sdxl/AlbedobaseXL 2.1というSDXLのベースに近そうなモデル＋LLMという組み合わせを作って人がいた(スレッド内で指摘されているがRouWei-Gemmaと基本的に同じような考えと方向性の実装)morisoba65536.icon

2026/1/21

https://x.com/Machinedelusion/status/2013409620262273485?s=20Videoのキャプション付けmorisoba65536.icon

2026/1/20

Redditでのモデルの話題性を見てるとモデル自体の大きさに加えて「生成までの速度」も結構大きな要素になってそうな感じはあるmorisoba65536.icon

画像生成でこういうのやりたい基素.icon

https://youtu.be/nD07fRbAs5U

Wan-Animateが出たときにやろうと思ったけど、時間がかかりすぎるのでやめた…nomadoor.icon

https://www.youtube.com/watch?v=oMFnxahh-WM

こんな感じでもっとアニメに寄せようと思ってた

速度的にはLTX-2は評判良さそうなので2.1辺りなりLoRAなりで画質のドリフトが落ち着いてくれば行けるのかもしれないmorisoba65536.icon

2026/1/19

https://www.reddit.com/r/StableDiffusion/comments/1qgsys5/psa_if_youre_training_on_flux2kleinbase4b_check/?utm_source=share&utm_medium=mweb3x&utm_name=mweb3xcss&utm_term=1&utm_content=share_button恐らくZ-Imageでも似た事が起こるだろうけど、FLUX.2-klein-base-4Bは厳密にはFLUX.2-klein-4Bのベースモデルではないのでbaseの方でフィットするように学習しても蒸留モデルだと過学習まで進んでしまってる問題が起きる事があるみたいね…morisoba65536.icon

2026/1/18

https://www.reddit.com/r/StableDiffusion/comments/1qg6y8j/how_to_generate_proper_japanese_in_ltx2/How to generate proper Japanese in LTX-2

かなりすごいnomadoor.icon

http://www.ellinikonblue.com/computer/stability_matrix_trouble_comfyui_not_run年始にComfyUIが動かなくなった人へ(CUDAパッケージが入れ替わってるみたい)morisoba65536.icon

2026/1/16

https://huggingface.co/black-forest-labs/FLUX.2-klein-base-4BZ-Imageが中々ベースでない間にFlux.2のベースがでたmorisoba65536.icon

軽くアーキテクチャを調べた限りGLM-Imageはかなり(これまでの生成モデルと)画像生成のアーキテクチャが違いそう。具体的には今までのモデルが「llmが埋め込みと言う設計図生成→現場は拡散モデルが仕様をもとに組み立てる」だったのがGLM-Imageは「設計者(LLM)が現場まで来て区画単位で作業指示する」ような形morisoba65536.icon

要は従来モデルのパイプラインをそのまま使えないのでComfyUI対応はもしするとしたら大工事になるだろうなと…(このタイプのアーキテクチャが流行りそうになければちと実装されるかも怪しそう)morisoba65536.icon

周辺の報告や挙動等からすると恐らくgpt-image-1等はこれに近い仕組みと思われるmorisoba65536.icon

同じように自己回帰llm+拡散モデルの組み合わせも従来の殆どのモデル(FLUX.1やQwen-Image等)は単純に埋め込み(設計図)を作るのがClipからllmに変わっただけで基本的な構造はStable Diffusionの頃から変わっていないので(なのでノードの組み合わせが基本的に流用できたようで)morisoba65536.icon

https://www.reddit.com/r/StableDiffusion/comments/1qe7i0k/comment/nzvg2cj/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button🦊LTX-2のキーフレームノード？morisoba65536.icon

2026/1/15

https://x.com/wildmindai/status/2011454694615585113?s=20LTX-2のVAE更新(distilledのみ？)morisoba65536.icon

あんまり変わらなかったんだけどなんでだろ…nomadoor.icon

どちらにせよ、蒸留が強いのでloraで適用したほうが綺麗に生成できる

https://x.com/Yeq6X/status/2011685565050343590?s=20文字列保持は割と得意な模様(参考に再投稿されていた動画があったのだが今見たら多分元動画のほうが消えてた…)morisoba65536.icon

ゆっくりいじりたいのだが色々年始の作業が詰まっていて遊べるのは今月末くらいになりそうだ…morisoba65536.icon

https://x.com/mix_buchi_/status/2011767834565857540?s=20とりあえず🦊LTX-2はComfyUI-KJNodesにNAGノードが追加されたようだmorisoba65536.icon

https://x.com/wildmindai/status/2011191089483694357?s=20NotebookLMを使ったマニュアル？https://x.com/PhotogenicWeekE/status/2011741569221849453?s=20プロンプトは箇条書きが有効？morisoba65536.icon

2026/1/13

https://www.reddit.com/r/StableDiffusion/comments/1qbi3ax/rewrite_for_workflow_link_combo_of_japanese/LTX-2は漢字の読みは苦手だがプロンプトとして日本語突っ込むのは使えそうな感じ？(Gemma 3使ってるのであり得そうな話ではあるが)

LTX-2 日本語プロンプト

ﾋﾞﾐｮｳ…nomadoor.icon

微妙だったか…morisoba65536.icon

メモリに5万払うなら15万で3090買ってしまおうかという葛藤と戦っている…nomadoor.icon

2026/1/11

res_2sをちょくちょくオススメされるが、イマイチ良さがわからないnomadoor.icon

いや、ちゃんと調べるか

LTX-2 Sampler settings comparison

もうなんでもよくない…？

https://www.reddit.com/r/StableDiffusion/comments/1q916xs/you_can_add_audio_to_existing_videos_with_ltx2/https://pastebin.com/4w4g3fQELTX-2で既存のビデオにオーディオを追加するworkflowらしいmorisoba65536.icon

https://github.com/wildminder/awesome-ltx2LTX-2向けの色々まとめてるリポジトリmorisoba65536.icon

ここ以下2026/01/13追記:上記リポジトリにはプロンプトの書き方ガイドなども書いてある

本家より低ランク化したdistilled loraがあるので容量減らしたい場合には有用かも？

2026/01/10

Qwen-Image-Edit-2511-Multiple-Angles-LoRA

2026/01/09

https://x.com/wildmindai/status/2009284495812272457?s=20ComfyUIでのオーディオ版アップスケーラーmorisoba65536.icon

https://note.com/kongo_jun/n/n1bd8b8279e75LTX-2でのFLF2V、記事でも書かれてるがやや厳しい感じmorisoba65536.icon

🦊LTX-Video#6808cb6600000000002ce50f時代はAdd Guide連結でいけたんだけど、試してみる限り無理そうnomadoor.icon

ああ、このカスタムノードはI2Vの延長的な実装か

2026/01/08

https://x.com/deepbeepmeep/status/2009017124774105134?s=20WanGPで低VRAM環境向けのLTX-2対応が来た模様morisoba65536.icon

もはや手遅れだけとメモリ買っとかないとさらに後悔する気がしなくもないnomadoor.icon

買うなら今すぐ、待ちなら最低2年と言った感じですね…(最長はわからん、速度妥協できるならDDR4のほうがまだマシらしい)morisoba65536.icon

🦊RunPodとかはかなり安いらしいのでそちらを軸にしていくのも手かも知れないmorisoba65536.icon

https://x.com/ttplanet/status/2009046339028725965?s=20https://github.com/TTPlanetPig/Comfyui_TTP_Toolset/blob/main/LTXVFirstLastFrameControl_TTP.pyLTX-2でFLF2Vをできるノードのようだ？

2026/01/07

特定のキャラにフォーカスを当てて周りを簡単な作画にする指示を各種画像生成モデルに出してみるとGPT Image 1.5やNano-Bananaが強いのはそうとしてQwen-ImageよりZ-Image-Turboが健闘するのが割と意外。Qwen2.5-VL 7BよりQwen3 4Bの方がテキスト理解力高いのかも知れない。morisoba65536.icon

小型モデルの性能向上は結構著しいので昨今のメモリ高騰が無ければ今年にはスマホで実用的なLLMが動く…もあり得そうだったんですがね…(今年はメモリ4GBスマホが復活してしまうという話もある程度なので…)morisoba65536.icon

2026/01/06

https://x.com/ComfyUI/status/2008384996571320642?s=20ついにComfyUIがRocmサポートmorisoba65536.icon

https://huggingface.co/Lightricks/LTX-2/もう来ないかと思ってたLTX-2のWeight公開が来たmorisoba65536.icon

https://x.com/wildmindai/status/2008205516594683983?s=20ComfyUI対応アナウンスも近いうちに来そうmorisoba65536.icon

https://blog.comfy.org/p/ltx-2-open-source-audio-video-aiComfy.Orgからworkflow出てるけど…専用ノードだらけでえらい複雑だな…nomadoor.icon

音声生成絡むから仕方ないんだろうけど…ComfyUIといえどさすがに細かいぜこれは(；・∀・)

いや、よく見たらSDXLみたいに、二段階にしてるだけか

正直「11月下旬」から「(2025)今年後半には」に変わったあたりでもうでないかなーと思ってたし一応待ったが12月中に来なかったので無いものと思ってたのでちょっとびっくりしてるmorisoba65536.icon

LTX-2.5が出来たのかな()nomadoor.icon

2026/01/05

https://github.com/soulctcher/TetriNodeテトリスをプレイするためのComfyUIノード(キーコンフィグとかもできる)morisoba65536.icon

多分そのうちDoomも動く(しらんけど)morisoba65536.icon

もうあった気がすると思ったらあったnomadoor.icon

https://github.com/ryanontheinside/ComfyUI_DoomComfyUI_Doom

もうあるのか…morisoba65536.icon

https://github.com/erroralex/Metadata-ViewerComfyUIにも対応してるAI画像のメタデータビューア(試したらページ作ると思う)morisoba65536.icon

プロンプトの言語に出力が大きく引っ張られるのネタを見て「ヒエログリフでプロンプト書けば古代エジプト風になるかな？」と思ったがGrok曰く「現在の言葉をそのまま古代エジプト語に変換するのは難しい(表音文字として音を合わせるくらいしかできん)」と翻訳時点でストップがかかったmorisoba65536.icon

2026/01/01

https://github.com/princepainter/ComfyUI-PainterI2VadvancedComfyUI-PainterI2Vの拡張版？morisoba65536.icon

https://www.reddit.com/r/NeuralCinema/comments/1pzpqgr/svi_2_pro_hard_cut_lora_works_great_24_secs/https://civitai.com/models/2088559/cinematic-hard-cutカット切り替えLora動画延長に使えそうmorisoba65536.icon

https://www.reddit.com/r/StableDiffusion/comments/1pzj0un/continuous_video_with_wan_finally_works/https://civitai.com/models/1866565?modelVersionId=2547973ComfyUI-WanVideoWrapperでSVI 2 Proなる技術で長時間動画が作れるらしい？morisoba65536.icon

https://x.com/Machinedelusion/status/2006201412154245602?s=20ComfyuiむけFL Song Genmorisoba65536.icon

2ヶ月ほど離れててすっかり浦島(まだ足軸はゲーム側)morisoba65536.icon

あけましておめでとうございます！！nomadoor.icon

https://gyazo.com/f131b84bf16077bc573865661090430c

おめー基素.icon

おうまさん！takker.icon